Big Data и Hadoop — ключевые технологии для обработки больших объемов данных. Hadoop, стартовавший в 2005 году, стал основой экосистемы связанных проектов. Разработан на Java с использованием парадигмы MapReduce (от Google), которая разбивает задачи на элементарные подзадачи, выполняемые на узлах кластера с последующим объединением результатов. Используется для поисковых и контекстных механизмов высоконагруженных веб-сайтов. Основная цель — горизонтальная масштабируемость через добавление недорогих серверов.

Примеры

  • Поисковые системы (например, Yahoo)

  • Apache Spark

  • Apache Hive

  • Apache Pig

  • HDFS

Операции

  • Insert: Медленный, так как данные распределяются по узлам HDFS, требуя фрагментации и репликации для отказоустойчивости.

  • Select: Эффективен для аналитических запросов на больших объемах данных благодаря параллельной обработке MapReduce или Spark, но медленнее для точечных запросов.

  • Update: Практически невозможен или крайне медленный, так как HDFS оптимизирован для добавления данных, а обновление требует переписывания файлов.

  • Delete: Медленный, так как удаление данных требует изменения метаданных и реорганизации файлов в распределенной системе.

Преимущества

  • Высокая масштабируемость за счет добавления узлов.

  • Эффективная обработка больших объемов данных.

  • Отказоустойчивость благодаря репликации данных.

Недостатки

  • Медленные операции записи и обновления.

  • Высокая сложность настройки и управления кластером.

  • Не подходит для реального времени или транзакционных задач.

Последнее обновление